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Types de croisements entre caractères relatifs aux même 
unités 


o Exemple de base de données statistique 


ə Les données d'une étude statistique portent sur les individus et peuvent être 
de plusieurs natures (qualitative, quantitative discret et quantitative 
continue) ; 

ə Pour analyser la relation entre deux variables de la base, nous devons faire 
sortir un autre tableau statistique à partir de cette base; 

ə Souvent, ce tableau s'appelle Tableau de contingence, surtout u 
variables qualitatives ; INSEA 
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Types de croisements entre caractères relatifs aux même 
unités 


Y Quantitatif | Quantitatif ne 

X Discret Continu Qualitatif 
Quantitatif B 

Discret Mëme type Exemple 1 
Quantitatif À 

Continu Même type 

Qualitatif Exemple 2 Ve 


ə Exemple 1 : Y : Taille du ménage et X : état matrimoniale du chef du ménage 


ə Exemple 2 : Y : Revenu du ménage et X ` Bénéfice d'un programme social 


(Oui/Non) 
wf 
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Présentation d'un tableau statistique à double entrées 


Modalités de Y 


MY: MY, MY, | Total 
MX; | nu ni; niq ni. 
Modalités de X | MX; nil Nij Niq ni. 
MXq | nei Dei Npq 
Total ni nj Da 
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Lecture du tableau 


Que signifie chaque cellule du tableau ? 

ə nı = card (individus / X, = MX. et Yp = MY.) Pour les individus de 1 à 
ni. = card (individus / Xp = MX) Pour les individus de 1 à N; 
na = card (individus / X, = MX; et Y, = MY.) Pour les individus de 1 à N; 
no = card (individus / X, = MX; et Ya = MY;) Pour les individus de 1 à N; 
Npg = Card (individus / X, = MX, et Y, Mal Pour les individus de 1 à 
N; 
ə nj = card ( individus / Y, = MY;) Pour les individus de 1 à N; 
on =) ann Dinan = N 
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Distribution conjointe (X,Y) 


ie 


INSEA 


MY. MY; MY, | Total 
MX: fil fij fiq ñ 
Ma | fi fij fiq fi 
MX, fe fpj foq fo. 
Total fi fj fa f. = 1 
CDD Dj fj = ca = 1 
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Distribution conditionnelle X/Y et Y/X 


e Distribution conditionnelle X/Y 


RNA | ee | 2 | 0652 | à |... [| AP lil 


MX LA L L r fil 1 


E 


Im i 


9 yi f = 1 PC à 
gÇ n] 
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Distribution conditionnelle X/Y et Y/x 


e Distribution conditionnelle Y/X 


MY 


MX 


MX; 


MX, 
Total 
L _ ni; _ D 
° Ea h 
p ei — 
9 Z= f = 1 PC ag 
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Notion d'Indépendance, de Corrélation et de liaison 
fonctionnelle 


e Étude simultanée de deux variables X et Y définies sur une même population 
P : mettre en évidence une éventuelle liaison (relation, dépendance) entre les 
variables ; 


o Exemples : Etude de la liaison entre 


@ Le revenu du père et le revenu du fils (quantitatives) ; 

@ Le revenu du ménage et le sexe du chef du ménage (quantitative / 
qualitative) ; 

@ L'appréciation de l'amélioration du niveau de vie et le milieu de résidence 
(qualitatives). 
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Définition de l'indépendance d'une fonction à une variable 


ə La relation entre deux variables peut être ` 
@ Indépendance : La connaissance de X ne permet pas de prévoir Y 
@ Liaison fonctionnelle : La connaissance de X détermine Y 
@ Corrélation statistique ` La connaissance de X donne des idées sur Y 
e Rôle des variables dans la relation : dans certains cas, une variable peut 
en expliquer une autre, dans d'autres cas, les variables jouent des rôles 
symétriques. 
e Vocabulaire : Pour des variables qualitatives : association. Pour des 
variables quantitatives : corrélation. 


ie 
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Définition de l'indépendance statistique 


L'indépendance statistique renferme deux notions : 
@ L'indépendance d'une fonction à une variable : 


> La valeur de Y est constante Y* quelque soit la valeur de X; 
> f(X) = Y* : la fonction f est indépendante de X; 


@ L'indépendance statistique : 


> Les distributions conditionnelles de X/Y sont identique : fc = E, 
> La conséquence de ceci est qu'elles sont identiques à la distribution marginale 


. ñil ni2 Niq ni. 
Ge n. ous SS SCH 
> Jour fis 
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Indépendance et corrélation pour les variables quantitatives 


Analyse descriptive de la corrélation : représentation graphique 
ə Pour avoir une idée sur la relation entre les deux variables, on établi le 
graphique de nuage de points ou diagramme de dispersion 
(scatter-plot) ; 
e Les deux variables sont représentées par chacun des axes. 
o Exemple : 


Dépense annuelle par ménage (en DH) 
100000 200000 300000 400000 500000 600000 
ñ 1 f ñ 1 1 


40 
Age du Chef du ménage 
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Indépendance et corrélation pour les variables quantitatives 


Analyse descriptive de la corrélation : représentation graphique 


(1) Pas de corrélation (2) Corrélation linéaire, positive 
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Indépendance et corrélation pour les variables quantitatives 


Analyse descriptive de la corrélation : la covariance 

e Le terme covariance renvoie à la variance. La variance est une mesure qui 
quantifie la dispersion moyenne des valeurs prises par cette variable autour de 
sa moyenne ; 

o Deux variables co-varient ensemble lorsqu'un écart à la moyenne d'une 
variable est accompagné par un écart dans le même sens ou dans le sens 
opposé de l'autre variable; 

oe Autrement dit, deux variables co-varient lorsque la variation d'une des 
variables autour de sa moyenne semble influencer la manière dont l'autre 
variable varie autour de sa moyenne; 

ə La covariance exprime donc une quantité de variance partagée entre deux 
variables. En effet, tout comme la variance, plus la valeur de la covariance est 
élevée, plus les deux variables partagent une portion importante de variance: 
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Indépendance et corrélation pour les variables quantitatives 


Analyse descriptive de la corrélation : la covariance 


ə La covariance se calcule en utilisant la formule suivante : 


N 5 = N 
ny = Cu yy= a LUE 8 


e Propriétés de la covariance : 
@ Cov(X,Y) = Cov(Y, X); 
@ Cov(X,X) = Var(X); 
@ Var(X+Y) = Var(X) + Var(Y) + 2 Cov(X,Y); 
@ Y 3,b,c, x, yo € R : Cov(aX + xo, bY + yo) = a.b.Cov(X, Y) 
= Var(aX + bY + c) = & Var(X) + b2Var( Y) + 2.a.b.Cov(X, Y) 
Q |Cov(X, Y)| < vd Var(X)Var( Y) 
e Le calcul de la covariance diffère entre les données d'une population et 
l'échantillon ; 


Y 


ə Les applications statistiques permettent le calcul des matrices de covariances 
des variables quantitatives ; FC a 
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Indépendance et corrélation pour les variables quantitatives 


Analyse descriptive de la corrélation : 


la covariance 


ə Exemple : soit le tableau suivant relatif à une étude sur 10 semaines sur les 
retombés de la publicité d'une société sur ses ventes : 


Semaine 


Nombre de spots publicitaires 


Ventes en unités 


1 


2 


50 


57 


41 


54 


54 


38 


63 


48 


O| OO. I O O1| + | | ND 


59 


= 
° 


N | Pl ©) Ou el +| Co kal 


46 


ə Calculer la covariance entre le nombre de sports publicitaires (X) et | 


(Y) 
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Indépendance et corrélation pour les variables quantitatives 


Analyse descriptive de la corrélation : 


la covariance 


Semaine | Spots (X) | Ventes (Y) | X, — X | Y, — Y x A 
1 2 50 -1 -1 1 
2 5 57 2 6 12 
3 1 41 -2 -10 20 
4 3 54 0 3 0 
5 4 54 1 3 3 
6 1 38 -2 -13 26 
7 5 63 2 12 24 
8 3 48 0 -3 0 
9 4 59 1 8 8 
10 2 46 -1 -5 5 
Total 30 510 99 
e X=3et X =51 — 
>V (X—-X)(Yi- ` oo 
o Cov(X,Y) = S= = 2 = 9.9 INSEA 
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Indépendance et corrélation pour les variables quantitatives 


Interprétation de la covariance 


65 


xX=3 ° 
l 
60 I 
l ° 
@ om. 
l 
55 + š 
el A ESC ERNEST EE Su ER EEE FES 
Ë 50 . | yao 
3 ; 
° 
45 ' 
® | ® 
40 ° ! 
° I 
35 1 L | L L 
0 1 2 3 4 5 6 


Nombre de spots publicitaires 


ə Si la valeur de ox y est positive, les points qui ont la plus grande influence 
sur ox, y se trouvent dans les cadrans l et Ill; 

ə Une valeur positive de ox,y révèle une relation linéaire positive entre X et Y; 
c'est-à-dire, lorsque la valeur de X augmente, la valeur de Y augmente; 


valeur de ox y sera proche de zéro, indiquant l'absence d'une relatio 
entre X et Y. 
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e Si les points sont répartis de façon uniforme entre les quatre cadrans, es 


La corrélation 


e Malgré que la covariance donne une idée sur la liaison entre deux variables 
quantitatives, elle n'est pas facilement lisible ; 


e Pour une meilleure lecture de cette liaison, on fait appel à une autre mesure 
qui se vase sur la covariance : c'est le coefficient de corrélation ; 


e Selon les données que nous utilisons, il y a plusieurs mesure de la corrélation, 
mais la plus célèbre est le coefficient de corrélation de Pearson; 


o Mais pour pouvoir utiliser ce coefficient, il faut que les données vérifient 4 
hypothèses à savoir : la continuité des données, la linéarité de la liaison entre 
les deux variables, la normalité des données et l'absence des observations 
abérantes ; 

e Une corrélation positive entre deux variables ne signifie pas 
automatiquement une relation de cause à effet. C'est à dire que si 
deux variables sont positivement liées, cela ne veut pas dire qu’une 
variable détermine l’autre ; 


ə Si les hypothèses ne sont pas vérifiées, on fait appel à d'autres mer 


comme le coefficient de Spearman ou celui de Kendall ; NEER 
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Le coefficient de corrélation de Pearson 


ə Par la suite, nous allons assumer la vérification des hypothèses pour utiliser le 
coefficient de Pearson ; 


e Le coefficient se calcule comme suit : 
ox,Y Covx,y 
IXY HSN OXx.-OY Ecart—type(X).Ecart— type( Y) 


> (X-X) Y-Y) 
wd N Š N = 
VEN- Date Ka 
N N N 
px.y = LB DE Ri- N e 
g N N 2 N N 2 
du ëng Ai: Fa x) H Ké Ss Së Y.) 
e Au delà du calcul de coefficient de corrélation, il y a des tests statistiques 
pour vérifier si le coefficient calculé est statistiquement différent de 0 ou non; 


EU) 
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Lecture du coefficient de corrélation de Pearson 


ə Le coefficient se situe toujours entre -1 et 1; 


ə Si le coefficient est proche de -1 : Il y a une forte liaison inverse entre X et Y. 
C'est à dire que si X augmente, Y tend à diminuer; 

e Si le coefficient est proche de 1 : Les deux variables X et Y augmentent ou 
diminuent ensemble. C'est à dire que si X augmente, Y tend à augmenter 
aussi ; 

e Si le coefficient est proche de 0 ` Aucune liaison apparente entre les variables. 
Dans ce cas, on peut visualiser les données pour voir la nature de la liaison 
entre X et Y et faire les transformations nécessaire de données pour plus de 
visibilité ; 


is 
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Lecture du coefficient de corrélation de Pearson 


e La figure suivante présente la méthode de lecture du coefficient de corrélation. 


° ° ° L 
Wi ° d se © . ., e zs P Be 
KÉ D La Wi o H ° s $ °. RO 
Ze dë e © e fe ee eeë ° 
° Ze ee e M ° wë 
> > > > > > > 
-1 —0,5 0 0,5 1 
Parfaite Forte Faible Aucune Faible Forte Parfaite 
corrélation corrélation corrélation corrélation corrélation corrélation corrélation 
négative négative négative positive positive positive 
INSEA 
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La coefficient de corrélation 


ə Exemple 1 : Reprenons l'exemple précédent sur le nombre des spots 
publicitaires et les ventes d'une entreprise. 


Semaine | Nombre de spots publicitaires | Ventes en unités 
1 2 50 
2 5 57 
3 1 41 
4 3 54 
5 4 54 
6 1 38 
7 5 63 
8 3 48 
9 4 59 
10 2 46 
ə Calculer le coefficient de corrélation. pus 
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Indépendance et corrélation pour les variables quantitatives 


Analyse descriptive de la corrélation : 


la covariance 


X Y X }2 ou | (X; — X) 

LE EE =Y s E 

2 50 -1 -1 1 1 1 

5 57 2 6 4 36 12 

1 | 41 -2 -10 4 100 20 

3 | 54 0 3 0 9 0 

4 | 54 1 3 1 9 3 

1 38 -2 -13 4 169 26 

5 63 2 12 4 144 24 

3 | 48 0 -3 0 9 0 

4 | 59 1 8 1 64 8 

2 46 sl -5 1 25 5 

30 | 510 20 566 99 
e X=3, X =51, cx = 1,49 et oy = 7,93 
ə Cov(X, Y) = 9.9 — 
e px,y SL = K. = 0,84 : Une forte liaison positive. PSA 
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Liaison entre deux variables qualitatives 


ə Dans le cas où on a deux variables qualitatives, on étudie la nature de la 
liaison entre les deux variables à travers : 
@ Coefficient de contingence; 
@ Coefficient de Pearson 


ie 
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Définition de l'indépendance statistique 


L'indépendance statistique renferme deux notions : 
@ L'indépendance d'une fonction à une variable : 


> La valeur de Y est constante Y* quelque soit la valeur de X; 
> f(X) = Y* : la fonction f est indépendante de X; 


@ L'indépendance statistique : 


> Les distributions conditionnelles de X/Y sont identique : fc = E, 
> La conséquence de ceci est qu'elles sont identiques à la distribution marginale 


. ñil ni2 Niq ni. 
Ge n. ous SS SCH 
> Jour fis 
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Mesure d'indépendance : Coefficient de contingence 


e La relation d'indépendance est la suivante : á = fi, 
Jj 
= fj = fjfi 
e On définit le Se de contingence C comme suit : 


2 _ Š; 
Pie f. - f; 


=b =, KK 
ə Alors le Eiere C est égale : 
C = :C>0 


Gs q)— 


ie 
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Mesure d'indépendance : Coefficient de Pearson 


oe Un autre coefficient est préconisé pour mesurer l'indépendance, c'est le 
coefficient de Pearson : 


ie 
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Calcul pratique des coefficients 


o Pour calculer le coefficient de contingence à partir des effectifs du tableau 
statistique, on utilise la formule simplifiée : 


2 
2 — np q Ce = 
Se i=1 —j=1 nn 1 


ə Exemple : soit le tableau de contingence suivant entre deux variables X et Y : 
Ke X2 X3 Au X5 Total 
Y 15 35 |12 | 24 19 105 
Y; 21 20 | 14 | 11 17 83 
Y3 18 17 | 14 | 29 34 112 
Ya 21 13 | 24 | 17 = 87 
Y5 25 24 | 18 | 26 123 
Total | 100 | 109 | 82 | 107 I | 510 | 


ə Calculer les indices di. C et P 


a 
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Calcul pratique des coefficients 


Xi Ke X3 X4 X5 Total 
Y: 15 35 12 | 24 19 105 
Lei 21 20 14 | 11 17 83 
Ys 18 17 14 | 29 34 112 
Ya 21 13 | 24 | 17 12 87 
KI 25 | 24 | 18 | 26 | 30 | 123 

Total | 100 | 109 82 | 107 112 RI 


2_ 15? 35? 19? 21? 172 302 _ 
9@ +$“ = T00.105 T 109.105 T + L T12.105 T 100.83 T T 112.85 + F 100.105 1 = 0,07 


— p? __ 0.07 _ 
9 C = min(p,q)—1 = 5-1 = 0.175 


/ oe / 0.07 
o P= I+? — \/ 1-+0.07 = 0.25 


A 
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Mesures de Corrélation : Liaisons fonctionnelles 


oe Quand l'indépendance entre X et Y n'est pas vérifié, on peut rencontrer les 
cas extrêmes de liaisons fonctionnelles 
@ De Y en X (dans ce cas p > q); 
@ De X en Y (dans ce cas p < q); 
@ Réciproque (dans ce cas p = q). 


es 
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Relation entre une variable qualitative et une variable 
quantitative 


e Pour le cas où on une variable qualitative et une quantitative, les deux 
variables ne jouent pas un rôle symétrique ; 

ə On veut étudier l'influence d'une variable qualitative (par exemple le sexe) sur 
une variable quantitative (par exemple le salaire) ; 

ə Dans ce cas, on peut utiliser les mêmes coefficient de contingence C, de 
Pearson P comme le cas de deux variables qualitatives; 


e Mais, la meilleure technique de faire une analyse ANOVA : analyse de 
la variance à un facteur. 
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Questions ? 


sis 
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